コードを書かずに”データ前処理”を作成・実行可能!機械学習を使用した新しいビジュアルデータ準備ツール「AWS Glue DataBrew」がリリースされました!
日本時間の2020年11月12日(火) 早朝、機械学習を使用した新しいビジュアルデータ準備ツールとして「AWS Glue DataBrew」という機能が突如発表されました!そしてこちらの機能、既に本日から利用可能となっているようです。
AWS Glue DataBrew, a visual data preparation tool that enables data scientists and data analysts to clean &
normalize data up to 80% faster, is now generally available. Read this AWS News Blog to learn more: https://t.co/BVp3PA5n4z pic.twitter.com/XUc8s3NPka— Amazon Web Services (@awscloud) November 11, 2020
当エントリでは、この新しい機能「AWS Glue DataBrew」がそもそもどういったものなのか、ざっくり内容を確認してみたいと思います。
目次
AWS Glue DataBrewとは
AWS Glue DataBrewは、コードを書かずに(ビジュアル・GUIで)データのクレンジングや正規化といった所謂「データの前処理」を行うことが出来る"データ準備ツール"機能です。この機能を使う事で「分析や機械学習で必要なデータの準備に掛かる時間を、個別に開発した場合のデータ準備のものと比べて最大80%短縮することが出来る」とAWSのドキュメントやリリースでは謳っています。
DataBrewを使うことで、ビジネスアナリストやデータサイエンティスト、デーアエンジニアが「生データ」から洞察を得るための作業をより簡単に行うことが出来るようになります。DataBrewはサーバレス構成となっており、技術レベルに関係無く、またクラスタやインフラ構成を管理すること無くテラバイト級の生データを探索し、変換することが出来るようになります。
DataBrewでは、以下のようなことが実行可能です。
- 直感的なDataBrewインタフェースを使用して生データをインタラクティブに検出・可視化・クレンジング・変換
- 発見が困難で修正に時間が掛かるような"データの品質"に関する問題を特定するのに役立つスマートなサジェッション(提案)を行う
- DataBrewがデータ準備を受け持つことで、それらを用いたより迅速な反復処理を実現
- 変換処理をレシピのステップとして保存しておくことで、後の工程でデータセットを更新したり再利用したりして継続的な展開を実現
下記構成はDataBrewのサービスレベルでの連携イメージです。(AWSドキュメントから拝借...)
DataBrewを使用するには、プロジェクトを作成してデータに接続する必要があります。プロジェクトのワークスペースではグリッド形式のユーザーインタフェースを介して表示されたデータを確認したり、データの探索や値の分布やチャートやプロファイル情報を確認することが可能となります。(※AWS Glue DataBrewの機能ページでは動画で動きを見ることが出来ます)
データ準備の際には、ビルトインで用意されている250以上の変換を使うことが出来ます。NULLの削除、欠損値の置換、スキーマ不整合の修正、関数に基づく列の作成等、様々な変換処理が用意されています。
(※ドキュメント対象ページより。アイコン表示で区分けされていて分かりやすいUIになっています)
また、変換を使用して自然言語処理(NLP)技術を適用した"文をフレーズに変換"するような処理も実現可能です。
「即時プレビュー」機能をを使って、変換前と変換後のデータを一部表示させ、データセット全体への適用を前に内容を確認し、レシピを修正することも出来ます。
DataBrewがデータセットでレシピを実行した後、出力はAmazon S3に保存されます。クレンジングされたデータセットがAmazon S3に保存された後、別のデータストレージまたはデータ管理システムがそれをインジェストすることが出来ます。
主な機能
AWS Glueのページで紹介されている「AWS Glue DataBrew」の機能についてもざっくり見ていきたいと思います。
データのプロファイル
データをプロファイリングしてデータの品質を評価し、データパターンを理解して異常を検出
データのクレンジング・正規化
250以上の組み込み変換機能を使い、、ポイントアンドクリックで作成可能な、インタラクティブなビジュアルインターフェースでデータを可視化、クリーン化、正規化
データの系統(リネージ)を視覚的にマッピング
データの系統を視覚的にマッピングして、データが通過した様々なデータソースと変換ステップをビジュアルで確認
自動化
保存された変換をソースシステムに入ってきた新しいデータに直接適用することで、データのクリーニングと正規化のタスクを自動化。
利用可能なリージョン
2020年11月12日現在時点では、以下のリージョンで既に利用が可能となっています。東京もバッチリ入ってますね。
- US East (N. Virginia)
- US East (Ohio)
- US West (Oregon)
- EU (Ireland)
- EU (Frankfurt)
- Asia Pacific (Sydney)
- Asia Pacific (Tokyo).
費用
AWS Glue DataBrewの利用料金については、AWS Glueの料金ページ(英語版)に該当タブが存在しており、そこで内容を確認することが出来ます。詳細は該当ページにてご確認ください。
まとめ
という訳で、新しく登場したAWS Glueのデータ準備ツール「AWS Glue DataBrew」に関する「出ました!」情報の紹介でした。
本日時点で既に利用可能であること、またドキュメントをザッと見渡した感じでも色々と触りがいのある機能のようです。今後も引き続き色々と試してみたいと思います!